(網(wǎng)經(jīng)社訊)10月29日消息,社交平臺Soul App旗下AI團(tuán)隊(Soul AI Lab)宣布開源其播客語音合成模型SoulX-Podcast。該模型專注于多人、多輪對話場景的語音生成,能夠穩(wěn)定輸出超過60分鐘的自然流暢對話,并支持中文、英語、四川話、粵語、河南話等多種語言及方言。除播客場景外,該模型在通用語音合成和零樣本克隆任務(wù)中也表現(xiàn)出較高自然度與適應(yīng)性。
據(jù)網(wǎng)經(jīng)社數(shù)字生活臺(DL.100EC.CN)了解,SoulX-Podcast的核心優(yōu)勢體現(xiàn)在多輪對話的連貫性與方言兼容性上。模型具備零樣本克隆能力,能夠根據(jù)少量參考語音還原說話人的音色與風(fēng)格,并根據(jù)對話上下文動態(tài)調(diào)整韻律節(jié)奏。此外,模型支持笑聲、清嗓等副語言元素的可控生成,提升語音的臨場感。在方言處理方面,即使僅提供普通話參考語音,模型仍可生成符合四川話、粵語等方言特征的語音,實現(xiàn)跨方言音色克隆。
技術(shù)架構(gòu)上,SoulX-Podcast采用LLM(語言模型)與Flow Matching結(jié)合的語音生成范式,并以Qwen3-1.7B作為基座模型,以繼承其語義理解能力。在多項測試中,該模型在語音可懂度和音色相似度上均達(dá)到當(dāng)前開源模型的先進(jìn)水平,尤其擅長處理長時對話中的音色一致性與角色切換準(zhǔn)確性。
該模型的開發(fā)與Soul App在AI社交領(lǐng)域的布局密切相關(guān)。團(tuán)隊此前已在平臺內(nèi)測全雙工語音通話系統(tǒng),并推出虛擬人互動功能(如虛擬人“孟知時”與“嶼你”的40分鐘對話實驗),探索AI在情感陪伴與內(nèi)容創(chuàng)作中的應(yīng)用。SoulX-Podcast的開源旨在解決當(dāng)前開源語音模型中長時多輪對話支持不足、方言覆蓋有限等問題,推動AIGC社區(qū)在語音交互領(lǐng)域的協(xié)作創(chuàng)新。
未來,Soul團(tuán)隊表示將持續(xù)優(yōu)化語音對話合成、全雙工通話等核心能力,并推動技術(shù)在虛擬生態(tài)、多模態(tài)交互等場景的落地。開源資源包括技術(shù)報告、源代碼、演示頁面及HuggingFace模型庫,開發(fā)者可通過GitHub等平臺獲取使用。


































